I modelli di ragionamento "pensano" davvero o no? La ricerca Apple scatena un vivace dibattito e una risposta

13 giugno 2025, ore 15:02

Credito: VentureBeat realizzato con Midjourney

Partecipa all'evento di cui i leader aziendali si fidano da quasi vent'anni. VB Transform riunisce le persone che sviluppano una vera strategia di intelligenza artificiale aziendale. Scopri di più

Il gruppo di apprendimento automatico di Apple ha scatenato una tempesta retorica all'inizio di questo mese con la pubblicazione di " The Illusion of Thinking ", un documento di ricerca di 53 pagine in cui si sostiene che i cosiddetti modelli di ragionamento di grandi dimensioni (LRM) o modelli di linguaggio di ragionamento di grandi dimensioni (LLM di ragionamento), come la serie "o" di OpenAI e Gemini-2.5 Pro e Flash Thinking di Google, in realtà non si impegnano in un "pensiero" o "ragionamento" indipendente a partire da principi primi generalizzati appresi dai loro dati di addestramento.

Gli autori sostengono invece che questi LLM basati sul ragionamento stanno in realtà eseguendo una sorta di "abbinamento di modelli" e la loro apparente capacità di ragionamento sembra sgretolarsi quando un compito diventa troppo complesso, il che suggerisce che la loro architettura e le loro prestazioni non rappresentano una strada percorribile per migliorare l'intelligenza artificiale generativa al punto da trasformarla in un'intelligenza artificiale generalizzata (AGI), che OpenAI definisce come un modello che supera gli esseri umani nei lavori economicamente più preziosi, o in una superintelligenza, un'intelligenza artificiale ancora più intelligente di quanto gli esseri umani possano comprendere.

Non sorprende che l'articolo abbia subito avuto ampia diffusione nella comunità del machine learning su X e le prime reazioni di molti lettori sono state quelle di dichiarare che Apple aveva di fatto smentito gran parte del clamore attorno a questa classe di intelligenza artificiale: "Apple ha appena dimostrato che i modelli di 'ragionamento' dell'intelligenza artificiale come Claude, DeepSeek-R1 e o3-mini in realtà non ragionano affatto", ha dichiarato Ruben Hassid , creatore di EasyGen, uno strumento di scrittura automatica di post su LinkedIn basato su LLM. "Semplicemente memorizzano gli schemi molto bene".

Ma oggi è emerso un nuovo articolo , sfacciatamente intitolato " The Illusion of The Illusion of Thinking" (L'illusione dell'illusione del pensiero ) - importante, scritto a quattro mani da un LLM ragionatore, Claude Opus 4 e Alex Lawsen, un essere umano e ricercatore indipendente di intelligenza artificiale e scrittore tecnico - che include molte critiche da parte della più ampia comunità di ML sull'articolo e sostiene in modo efficace che le metodologie e i progetti sperimentali utilizzati dal team di Apple Research nel loro lavoro iniziale sono fondamentalmente imperfetti.

Anche se noi di VentureBeat non siamo ricercatori di ML e non siamo disposti a dire che i ricercatori Apple sbagliano, il dibattito è stato sicuramente acceso e la questione sulle capacità degli LRM o dei LLM ragionatori rispetto al pensiero umano sembra tutt'altro che risolta.

Utilizzando quattro classici problemi di pianificazione (Torre di Hanoi, Mondo di blocchi, Attraversamento del fiume e Salto della dama), i ricercatori Apple hanno progettato una serie di attività che costringevano i modelli di ragionamento a pianificare più mosse in anticipo e a generare soluzioni complete.

Questi giochi sono stati scelti per la loro lunga storia nella scienza cognitiva e nella ricerca sull'intelligenza artificiale e per la loro capacità di aumentare la complessità con l'aggiunta di più passaggi o vincoli. Ogni enigma richiedeva ai modelli non solo di fornire una risposta finale corretta, ma anche di spiegare il loro ragionamento lungo il percorso, utilizzando suggerimenti basati sulla catena di pensiero.

Con l'aumentare della difficoltà dei puzzle, i ricercatori hanno osservato un calo costante dell'accuratezza in diversi modelli di ragionamento principali. Nei compiti più complessi, le prestazioni sono crollate a zero. In particolare, anche la lunghezza delle tracce di ragionamento interne dei modelli, misurata dal numero di token spesi per elaborare il problema, ha iniziato a ridursi. I ricercatori di Apple hanno interpretato questo come un segnale che i modelli stavano abbandonando del tutto la risoluzione dei problemi quando i compiti diventavano troppo difficili, essenzialmente "arrendendosi".

La tempistica della pubblicazione del documento, poco prima della Worldwide Developers Conference (WWDC) annuale di Apple , ha contribuito ad accrescerne l'impatto. È diventato rapidamente virale su X, dove molti hanno interpretato i risultati come un'ammissione di alto profilo del fatto che gli LLM di attuale generazione sono ancora motori di autocompletamento glorificati, non pensatori di uso generale. Questa inquadratura, seppur controversa, ha guidato gran parte della discussione iniziale e del dibattito che ne è seguito.

Tra i più accesi critici del documento di Apple c'era il ricercatore di ML e utente di X @scaling01 (noto anche come "Lisan al Gaib"), che ha pubblicato diversi thread in cui analizzava la metodologia.

In un post ampiamente condiviso , Lisan ha sostenuto che il team Apple ha confuso gli errori di budget del token con gli errori di ragionamento, osservando che "tutti i modelli avranno una precisione pari a 0 con più di 13 dischi semplicemente perché non possono produrre così tanto!"

Per enigmi come la Torre di Hanoi, ha sottolineato, la dimensione dell'output cresce esponenzialmente, mentre le finestre del contesto LLM rimangono fisse, scrivendo "solo perché la Torre di Hanoi richiede esponenzialmente più passaggi rispetto agli altri, che richiedono solo un numero di passaggi quadratico o lineare maggiore, non significa che la Torre di Hanoi sia più difficile" e ha dimostrato in modo convincente che modelli come Claude 3 Sonnet e DeepSeek-R1 spesso producevano strategie algoritmicamente corrette in testo normale o codice, ma venivano comunque contrassegnate come errate.

Un altro post ha evidenziato che anche suddividendo il compito in passaggi più piccoli e scomposti si peggioravano le prestazioni del modello, non perché i modelli non riuscissero a comprenderlo, ma perché non ricordavano le mosse e le strategie precedenti.

"L'LLM ha bisogno della storia e di una strategia ambiziosa", ha scritto, suggerendo che il vero problema fosse la dimensione della finestra contestuale piuttosto che il ragionamento.

Ho sollevato un altro importante dubbio su X : Apple non ha mai confrontato le prestazioni del modello con quelle umane negli stessi compiti. "Mi sfugge qualcosa, o non avete confrontato i modelli di riferimento con le prestazioni umane negli stessi compiti? In caso contrario, come fate a sapere che questo stesso calo di prestazioni non si verifica anche nelle persone?" Ho chiesto direttamente ai ricercatori in una discussione taggando gli autori dell'articolo. Ho anche inviato loro un'e-mail su questa e molte altre domande, ma non hanno ancora risposto.

Altri hanno ribadito questo sentimento, osservando che anche i risolutori umani di problemi vacillano con lunghi e complessi rompicapo logici, soprattutto senza carta e penna o supporti mnemonici. Senza questa base di partenza, l'affermazione di Apple di un "collasso fondamentale del ragionamento" appare infondata.

Diversi ricercatori hanno anche messo in discussione la formulazione binaria del titolo e della tesi dell'articolo, che traccia una linea netta tra "pattern matching" e "ragionamento".

Alexander Doria, alias Pierre-Carl Langlais, formatore LLM presso la startup francese di intelligenza artificiale per l'efficienza energetica Pleias , ha affermato che questa inquadratura non coglie le sfumature , sostenendo che i modelli potrebbero apprendere euristiche parziali anziché semplicemente abbinare schemi.

Ok, credo che dovrò leggere quel documento sulla Apple.
Il mio problema principale è l'inquadramento, che è estremamente binario: "Questi modelli sono capaci di ragionamento generalizzabile o sfruttano diverse forme di pattern matching?" O se catturassero solo euristiche genuine ma parziali? pic.twitter.com/GZE3eG7WlM

— Alexander Doria (@Dorialexander) 8 giugno 2025

Ethan Mollick, professore di intelligenza artificiale presso la Wharton School of Business dell'Università della Pennsylvania, ha definito prematura l'idea che gli LLM stiano "sbattendo contro un muro", paragonandola ad affermazioni simili sul "collasso del modello" che non hanno avuto successo.

Nel frattempo, critici come @arithmoquine erano più cinici, suggerendo che Apple, in ritardo sugli LLM rispetto ai rivali come OpenAI e Google, potrebbe cercare di abbassare le aspettative, presentando una ricerca su "come tutto sia falso e gay e comunque non importi", hanno scherzato, sottolineando la reputazione di Apple con prodotti di intelligenza artificiale ora poco performanti come Siri.

In breve, se da un lato lo studio di Apple ha innescato un dibattito significativo sul rigore della valutazione, dall'altro ha anche evidenziato una profonda frattura su quanta fiducia riporre nelle metriche quando il test stesso potrebbe essere imperfetto.

In altre parole, i modelli potrebbero aver compreso gli enigmi ma aver esaurito la "carta" per scrivere la soluzione completa.

"Sono stati i limiti simbolici, non la logica, a congelare i modelli", ha scritto il ricercatore della Carnegie Mellon Rohan Paul in un thread ampiamente condiviso che riassume i test successivi.

Eppure, non tutti sono pronti a liberare i modelli LRM da questa accusa. Alcuni osservatori sottolineano che lo studio di Apple ha comunque individuato tre regimi prestazionali: compiti semplici in cui il ragionamento aggiuntivo risulta dannoso, enigmi di media difficoltà in cui è utile e casi di elevata complessità in cui sia i modelli standard che quelli "pensanti" falliscono.

Altri vedono il dibattito come un posizionamento aziendale, notando che i modelli "Apple Intelligence" integrati nei dispositivi Apple sono indietro rispetto ai rivali in molte classifiche pubbliche.

In risposta alle affermazioni di Apple, è stato pubblicato su arXiv un nuovo articolo intitolato " The Illusion of the Illusion of Thinking " dal ricercatore indipendente e scrittore tecnico Alex Lawsen dell'organizzazione no-profit Open Philanthropy , in collaborazione con Claude Opus 4 di Anthropic.

L'articolo contesta direttamente la conclusione dello studio originale secondo cui gli LLM falliscono a causa di un'intrinseca incapacità di ragionare su larga scala. Invece, la confutazione presenta prove del fatto che il crollo delle prestazioni osservato fosse in gran parte un sottoprodotto della configurazione del test, e non un vero limite della capacità di ragionamento.

Lawsen e Claude dimostrano che molti dei fallimenti nello studio di Apple derivano da limitazioni dei token. Ad esempio, in attività come la Torre di Hanoi, i modelli devono stampare un numero di passaggi esponenzialmente elevato – oltre 32.000 mosse per soli 15 dischi – il che li porta a raggiungere limiti di output.

La confutazione sottolinea che lo script di valutazione di Apple ha penalizzato questi output di token overflow come errati, anche quando i modelli seguivano internamente una strategia di soluzione corretta.

Gli autori evidenziano anche diverse costruzioni discutibili dei compiti nei benchmark Apple. Alcuni dei puzzle di River Crossing, osservano, sono matematicamente irrisolvibili nella loro forma originaria, eppure i risultati del modello per questi casi sono stati comunque valutati. Ciò mette ulteriormente in discussione la conclusione secondo cui le carenze di accuratezza rappresentano limiti cognitivi piuttosto che difetti strutturali negli esperimenti.

Per testare la loro teoria, Lawsen e Claude hanno condotto nuovi esperimenti che hanno permesso ai modelli di fornire risposte programmatiche e compresse. Quando è stato chiesto loro di generare una funzione Lua in grado di generare la soluzione della Torre di Hanoi, anziché scrivere ogni passaggio riga per riga, i modelli hanno improvvisamente avuto successo su problemi molto più complessi. Questo cambiamento di formato ha eliminato completamente il collasso, suggerendo che i modelli non avessero fallito nel ragionamento. Semplicemente, non erano riusciti a conformarsi a una rubrica artificiale ed eccessivamente rigida.

Questo tira e molla evidenzia un consenso crescente: la progettazione della valutazione è ormai importante quanto la progettazione del modello.

Richiedere agli LRM di enumerare ogni passaggio potrebbe mettere a dura prova le loro stampanti più dei loro pianificatori, mentre i formati compressi, le risposte programmatiche o gli scratchpad esterni forniscono una lettura più chiara della reale capacità di ragionamento.

L'episodio evidenzia anche i limiti pratici che gli sviluppatori devono affrontare quando distribuiscono sistemi agenti: finestre di contesto, budget di output e formulazione delle attività possono determinare il successo o il fallimento delle prestazioni visibili all'utente.

Per i responsabili delle decisioni tecniche aziendali che sviluppano applicazioni basate su LLM ragionati, questo dibattito è più che accademico. Solleva interrogativi cruciali su dove, quando e come affidarsi a questi modelli nei flussi di lavoro di produzione, soprattutto quando le attività implicano lunghe catene di pianificazione o richiedono un output preciso passo dopo passo.

Se un modello sembra "fallire" su un prompt complesso, il problema potrebbe non risiedere nella sua capacità di ragionamento, ma nel modo in cui il compito è impostato, nella quantità di output richiesta o nella quantità di memoria a cui il modello ha accesso. Questo è particolarmente rilevante per i settori che sviluppano strumenti come copiloti, agenti autonomi o sistemi di supporto alle decisioni, dove sia l'interpretabilità che la complessità del compito possono essere elevate.

Comprendere i vincoli delle finestre di contesto, dei budget dei token e delle rubriche di punteggio utilizzate nella valutazione è essenziale per una progettazione affidabile del sistema. Gli sviluppatori potrebbero dover prendere in considerazione soluzioni ibride che esternalizzano la memoria, suddividono in blocchi i passaggi di ragionamento o utilizzano output compressi come funzioni o codice invece di spiegazioni verbali complete.

Soprattutto, la controversia sollevata dal documento ci ricorda che il benchmarking e l'applicazione pratica non sono la stessa cosa. I team aziendali dovrebbero fare attenzione a non affidarsi eccessivamente a benchmark sintetici che non riflettono casi d'uso pratici o che limitano inavvertitamente la capacità del modello di dimostrare ciò che sa.

In definitiva, la grande lezione per i ricercatori di ML è che prima di proclamare un traguardo importante, o un necrologio, nell'ambito dell'intelligenza artificiale, bisogna assicurarsi che il test stesso non stia limitando il sistema a un ambito troppo piccolo per poter pensare al suo interno.

Approfondimenti quotidiani sui casi d'uso aziendali con VB Daily

Se vuoi fare colpo sul tuo capo, VB Daily è la soluzione che fa per te. Ti offriamo informazioni privilegiate su ciò che le aziende stanno facendo con l'IA generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere spunti per massimizzare il ROI.

Leggi la nostra Informativa sulla privacy

Grazie per l'iscrizione. Scopri altre newsletter di VB qui .

Si è verificato un errore.

venturebeat

I modelli di ragionamento "pensano" davvero o no? La ricerca Apple scatena un vivace dibattito e una risposta

Notizie simili

Come monetizzare le app Unity: best practice

L'Organizzazione per la gestione dei rifiuti nucleari avvia il processo di selezione del sito per il secondo deposito geologico profondo

Gli smartphone Google Pixel 9 crollano al prezzo più basso di sempre in una sorprendente vendita Sky

Presto arriverà un enorme aggiornamento gratuito per iPhone e c'è un modo semplice per ottenerlo per primo

WhatsApp avvisa gli utenti del Regno Unito di 9 modifiche all'app che potrebbero essersi persi